Выявление профилей потребителей интернет-магазина «Пока все ещё тут»

Цель - на основе данных пользовательской активность провести RFM сегментацию покупателей для дальнейшей корректировки маркетинговых событий.

Описание данных:

Датасет описывает транзакции интернет-магазина товаров для дома и быта «Пока все ещё тут».

Колонки в /datasets/ecom_dataset_upd.csv :

Ход исследования:

  1. Открыть данные и изучить общую информацию
  2. Выполнить предобработку данных:
  1. Провести исследовательский анализ данных:
  1. Провести сегментацию покупателей
  1. Анализ статистических гипотез
  1. Составить общий вывод по исследованию
  2. Сформулировать рекомендации по осуществлению рекламных рассылок
  3. Оформить презентацию

Загрузка данных

Импорт необходимых библиотек

Загрузка и чтение данных из csv-файла в датафрейм c помощью библиотеки pandas

Датасет содержит в себе сведения о покупках в интернет-магазине товаров для дома. После изучения общей информации о датасете видно, что пропуски и явные дубликаты в записях отсутствуют, однако необходимо провести проверку данных на наличие неявных дубликатов. Кроме того, нужно будет изменить типы данных в таблице и добавить несколько новых столбов для полного исследования.

Подготовка данных

Работа с дубликатами

Предобработка названий товаров, что может выявить дубликаты.

Явных дубликатов нет.

Проверка неявных дубликатов, не рассматривая столбец с датой.

Несмотря на то, что четверть датафрейма составляют неяные дубликаты, нам необходимо их удалить, так как их наличие может сильно повредить анализу.

Проверка неявных дубликатов на наличие заказов совершенных более чем одним покупателем.

Изменение типа данных

Добавление новых столбцов

Добавление столбцов с датами

Добавление столбца с суммой купленного товара

Проверка корректности предобработки

В ходе предобработки данных были выявлены и удалены неявные дубликаты, изменены типы данных и добавлены дополнительные столбцы. Преобработка данных завершена.

Исследовательский анализ данных

Количество проданного товара

Количество совершенных заказов

Количество покупателей

Средний показатели покупок на одного человека

В среднем на одного человека приходится 1 покупка. Максимальное количество совершенных одним человеком покупок составляет 126 покупок, что является выбрасом в данных. Для дальнейшего исследования стоит оставить показатели меньше 20единиц.

Стоимость среднего чека

В данных имеется слишком большое количество выбросов по стоимости заказа. Такие показатели могут указыывать на оптовые покупки, возможно не физискими лицами, а для коммерческого использования. Показатели более 20000 стоит исключить из данных.

В среднем стоимость чека одного заказа составляет 935р. Однако медианное значение составляет 442р.

Период исследования

До середины весны 2019г. продажи шли достаточно равномерно, но был провал в январе 2019г., возможно, в следствие продолжительных зимних выходных.

В апреле 2019г. был пик продаж за весь период исследования (выручка более 316тыс.р.).

После данной отметки продажи резко пошли на спад.

Рассматривая средний чек покупки, можно увидеть в некоторых периодых обратно пропорциональную зависимость. Так при низкой доходности зимой 2018-2019г. средний чек был в 2 раза выше, чем в самый прибыльный период.

Категоризация товаров

Проведение предобработки текстовых данных, приведение к начальной формы слова, для облегчения категоризации.

Проверка работы кода

Создание списков слов, по которым будет проиходить категоризация

Функция автоматичекой категоризации

Категоризация данных выполнена.

Создание функций для визуализации данных

Самыми популярными категориями товаров за весь исследуемый период являются:

Мешьне всего товар продано из категорий гигиена, для ванной и сумки и тележки.

Средний чек одного заказа самый высокий в категории "Инструменты". Самый низкий у категории "Рассада".

В самый прибыльный месяц (июнь 2019г) больше всего принесли товары категории "сумки и тележки" (около 73тыс.р.).

Весной 2019г. большую сумму для магазина составили купленные товары категорий растения, рассада и товары для стирки.

Товары для стирки, а также сумки и тележки в весь исследуемый период приносили высокий доход.

Больше всего товаров по количеству было продано из категорий растения и рассада весной 2019г, что объясняется началом дачно-огородного сезона. Несмотря на то, что это самые популярные товары в данный период, их стоимость невысока, поэтому прибыль с них не так заметна.

Примечательно, что товары для кухни чаще продаются в ноябре, январе и марте. Возможно, это связано с зимними или женскими праздниками(день матери и 8 марта).

Инструменты чаще продаются осенью и зимой.

Сумки и тележки пользуются популярностью в декабре, апреле и августе. Есть вероятность, что товары данной категории также предпочитают в качестве подарка.

Продажи текстиля проваливаются в весенне-летний период.

Таким образом, за исследуемый период с октября 2018г. по январь 2020г. было совершено 3324 покупок и продано 12100 товаров. Самым прибыльным периодом оказался апрель 2019г. До этого момента продажи шли равномерно, однако после пошли на спад и не догнали показатели зимы-весны 2019г.

Всего категорий товаров - 12:

Самые популярные категории товаров - растения, декор, рассада.

Больше всего в прибыльный период было продано товаров категории растения и рассада, но самые дорогостоящие товары относились к категории сумки и тележки и растения.

Самый большой средний чек у категории товаров "инструменты"

Сегментация покупателей

Проведение RFM- анализа для сегментации

квинтили — составление четырех равных частей на основе доступных значений — для расчета показателя RFM.

Идеальные покупатели

Покупателей с классом 444 не найдено

Лучшие покупатели

Топ-покупателей мало (4 человека), они делали заказы недавно, часто и принесли достаточно прибыли

Преданные покупатели

Преданных покупателей насчитывается 870 человек. Они делают заказ довольно часто, приносят большую прибыль, но могли совершить покупку давно.

Клиенты на пороге оттока

Таких клиентов на февраль 2020г. насчитывается уже 1202 человека. В последний раз они совершили покупку давно и больше не возвращаются в магазин, хотя могли сделать достаточно дорогостоящий заказ.

Потерянные клиенты

Безвозвратно потерянными можно считать 150 клиентов. Последний заказ они совершили очень давно, и чаще всего это была единоразовая покупка.

Зависимость между сегментом и денежной значимость не выявлена.

Чем ниже класс, тем более равние покупки были совершены.

Лояльные клиенты немного чаще других совершают покупки. Клиенты класса "на пороге оттока" с значением 244 приближаются к перемещению в сегмент лояльных клиентов.

По матрице корреляции видно прямая зависимость между ценой продукта и общего чека заказа, а также между денежной ценностью, которую несет покупатель, и ценой продукта и общим чеком.

Анализ категорий товар и сезонность по сегментам покупателей

Топ-покупатели

В сегменте "Топ-покупатели" самыми популярными были категории: растения, сумки и тележки, для стирки.

Самая дорогостоящая покупка была категория сумки и тележки, которая принесла также больше всего прибыли осенью 2019г.

Больше всего товаров было куплено в июне 2019г., категория - растения.

После октября 2019г. покупатели данного сегмента не возвращались в магазин.

Преданные покупатели

В сегменте "Преданные покупатели" самыми популярными категориями были: растения, рассада и для стирки.

Самые дорогостоящие покупки являлись заказы категорий текстиль, сумки и тележки, для стирки.

Больше всего покупатели потратились на сумки и тележки в зимний период (особенно декабрь 2019г.) и весной 2019г. Текстиль активно покупался в январе и апреле 2019 г. Товары для стирки также были довольно прибыльной категорий товаров преимущественно в зимний период.

Больше всего по количеству товаров было куплено в апреое 2019г. категории растения и рассада, а также в январе 2020г. категории растения.

Клиенты на пороге оттока

В сегменте "Клиенты на пороге оттока" Самыми популярными были товары категорий: растения, декор, рассада.

Самыми дорогостоящими покупками были заказы сумок и тележек, растений и товаров для стирки.

Самый высокий средний чек у категории инструменты.

В осенне-зимний период лучше продаются и приносят прибыль сумки и тележки, товары для стирки и декор. В весенний - растения, рассада, сумки и тележки и текстиль.

За весь период самые часто продаваемые категории - растения и рассада.

Последняя покупка клиентов данного сегмента была совершена в июле 2019г.

Потерянные клиенты

В сегменте "Потерянные клиенты" самыми популярными были категории: декор, растения и товары для кухни.

Самый высокий средний чек был у заказа товаров категории текстиль.

Прибыльными категориями товаров были растения зимой 2018-2019г. и товары ванной в октябре 2018г.

Больше всего по количеству товаров было куплено растений, товаров для кухни и декора(все в период с декабря 2018г. по февраль 2019г.)

Последний заказ клиентов этого сегмента был совершен в феврале 2019г.

После проведения RFM-анализа мы смогли поделить пользователей на 4 сегмента - топ-клиенты или лучший покупатели, лояльные клиенты, покупатели на пороге оттока и потерянные клиенты.

Сегменты клиентов интернет-магазина имеют весомые для анализа и дальнейших рекомендаций отличия.

Нагляднее всего данные о лояльных клиентах и о тех, кто подвержен риску оттока.

Проверка гипотез

Гипотеза №1

Н0 - статистически значимая разница между средними чеками кластеров покупателей отсутствует

Н1 - статистически значимая разница между средними чеками кластеров покупателей присутствует

В случае сравнения топ-клиентов с лояльными клиентами мы не можем отвергнуть нулевую гипотезу о том, что средний чек купленных товаров не имеет статистически значимых отличий. Следовательно, разница между остальными сегментами по среднему чеку покупок товаров статистически значима.

Гипотеза №2

Н0 - статистически значимая разница между частотой покупок между кластерами покупателей отсутствует

Н1 - статистически значимая разница между частотой покупок между кластерами покупателей присутствует

По частоте совершения покупок между кластерами покупателей присутствует статистически значимая разница

Общий вывод

В ходе исследования было выполнено:

  1. Открытие и загрузка данных:
  1. Выполнена предобработка данных:
  1. Проведен исследовательский анализ данных:
  1. Провести сегментацию покупателей
  1. Анализ статистических гипотез
  1. составлен общий вывод по исследованию
  2. даны рекомендации по осуществлению рекламных рассылок
  3. оформлена презентацию

Рекомендации по проведению рекламных рассылок

В качестве основной аудитории для проведения рассылок стоит взять сегменты покупателей "Лояльные клиенты" с rfm-классом выше 332 и "На пороге оттока".

Лояльные клиенты потенциально могут стать лучшими клиентами по показателям частоты, давности и денежной ценности покупки. Категории для рекламы стоит брать сумки и тележки, товары для кухни и декор. Категория сумки и тележки прибыльна и популярна, но объемы продаж можно увеличить за счет рекламы. Товары для кухни следует продвигать с ноября по январь. Декор довольно популярен, особенно в период перед предстоящими сезонными праздниками.

"Клиентов на пороге оттока" можно вернуть в ряды лояльных клиентов, обратив внимание на товары категории декор, товары для кухни или для стирки, а также текстиль. Декор и товары для кухни также обладают сезонностью связанной преимущественно с концом осени, новым годом и весной(мартом). Текстиль довольно популярен осенью и в декабре.

На потерянных клиентов не стоит тратить бюджет, так как последняя покупка была совершена год назад от актулальной даты исследования.

В качестве основной аудитории для проведения рассылок стоит взять сегменты покупателей "Лояльные клиенты" с rfm-классом выше 332 и "На пороге оттока".

Лояльные клиенты потенциально могут стать лучшими клиентами по показателям частоты, давности и денежной ценности покупки. Категории для рекламы стоит брать текстиль, декор и сумки и тележки. Данные категории довольно популярны, особенно в период перед предстоящими сезонными праздниками.

"Клиентов на пороге оттока" можно вернуть в ряды лояльных клиентов, обратив внимание на товары категории декор и товары для кухни или для стирки. Декор и товары для кухни также обладают сезонностью связанной преимущественно с концом осени, новым годом и весной(мартом).

На потерянных клиентов не стоит тратить бюджет, так как последняя покупка была совершена год назад от актулальной даты исследования.

Презентация

Презентация по итогам исследования: https://docs.google.com/presentation/d/1-IWy5yol-D7IVXt1p6TanSXgV6o1QtXWvsLNPtkSDdI/edit?usp=sharing